解决方案联系: chenhaiwen@sangxie.net 硬盘销毁联系: 287107672@qq.com

Sora来了!昆腾存储系统“三驾马车”满足AI刚需

684 昆腾

AI的进化实在太快了!当人们尚未完全体会到文生文、文生图大模型带来的极大便利的时候,OpenAI Sora来了!它的诞生标志着AI大模型开始进入更加“高级”的文生视频时代!现在,在Sora大模型的加持下,任何人只需键入简单的文字即可生产出细节丰富、视觉效果上乘的视频。

可以预见的是,一大批的文生视频大模型将会迅速上线,势必极大地推动影视、广告、传媒、短视频等行业的快速发展。同时,巨量的视频类非结构化数据也将以更快的速度暴增,这对于存储系统提出了更高的要求和挑战。

AI的存力“刚需”

除了对算力有极大的需求,AI对于存力的需求也非常高。AI对于存储有哪些“刚需”?

训练数据存储:AI模型的训练通常需要大量的数据,包括图像、文本、音频、视频等各种类型的数据。这些数据在预处理、特征提取以及模型训练过程中,都需要存储空间进行保存和读取。

模型参数存储:深度学习等AI模型的参数规模往往非常庞大,如GPT等大型语言模型的参数量可达数十亿甚至上千亿。训练得到的模型参数需要长期存储以便后续使用或继续优化。

中间结果存储:在训练过程中产生的中间结果、日志信息、版本迭代记录等也需要占用存储空间。

高速存取需求:AI训练对于I/O性能有较高要求,尤其是对于那些大规模并行计算任务,高效的分布式存储系统是必不可少的,能够快速地读取和写入大量数据以提升训练效率。

实时/近实时数据处理:在AI推理阶段,特别是对于实时或者近实时的AI应用,如智能安防监控、自动驾驶等场景,需要对源源不断产生的新数据进行快速存储和处理。

AI的发展推动了对大容量、高性式文件系统、对象存储服务等多种存储解决方案。同时,也促进了存储架构的创新,例如采用缓存加速、数据分级存储等方式来满足不同层次的存储需求。

昆腾存储系统“三驾马车”

对于AI在存储方面的需求,昆腾早已进行了完善的布局,推出Myriad、StorNext和ActiveScale存储系统“三驾马车”。

昆腾Myriad全闪存横向扩展文件与对象存储平台

昆腾Myriad是一个专为现代数据中心和AI工作负载设计的高性能存储解决方案。这款全闪存存储平台强调其高速、可扩展性和与硬件无关的设计,能够满足数据密集型工作负载的需求,特别是对于那些涉及到AI模型存储、训练数据管理及高性能计算用例的应用场景。

全闪存设计:Myriad平台专为闪存盘设计,充分利用闪存技术的高性能和低延迟特性,非常适合现代企业爆炸式增长的非结构化数据存储需求。

横向扩展架构:采用Share-Nothing可扩展架构,意味着系统可以在不牺牲性能的情况下,随着数据增长进行水平扩展,保持极低的延迟。

多协议支持:客户端组件包括支持NFS(网络文件系统)、SMB(服务器消息块,即Windows文件共享协议)、S3对象存储协议以及可能的专有服务和GPU直连服务,满足多样化的数据访问需求。

文件与对象存储融合:既可以作为文件系统也可以作为对象存储平台运行,支持混合工作负载,便于统一管理和访问不同类型的数据。

数据服务层功能丰富:支持内联重复数据删除和压缩,减少存储空间消耗;提供快照和克隆功能,加速备份和恢复操作;并且优化了AI/ML数据处理,加快机器学习和深度学习模型的训练速度。

Kubernetes编排:通过采用Kubernetes容器编排技术,Myriad的微服务架构能够实现更好的资源分配和故障恢复能力,进一步降低延迟并提高系统的并发处理能力。

高性能与低延迟:基于闪存和RDMA(远程直接内存访问)技术,确保即使在高负载情况下也能维持高水平的I/O性能。

昆腾StorNext共享存储文件系统

昆腾StorNext是一个高度可扩展的共享存储文件系统和数据管理平台,以其卓越的性能、大数据传输速度和对多种存储介质的整合能力而闻名,尤其是在媒体和娱乐行业得到了广泛应用。StorNext具备的一些关键特性使其能够有效支持AI应用程序的需求。

高性能存储: AI工作负载,尤其是深度学习和机器学习训练,需要快速、持续的大规模数据访问。StorNext提供的高速文件系统和数据迁移功能可以确保训练数据的高效流动,从而缩短训练周期。

数据管理与分级存储:StorNext支持数据生命周期管理,可以根据数据的重要性、访问频率和成本自动在不同层级的存储介质间迁移数据,这有助于优化AI项目中从原始数据摄取、预处理到模型训练再到模型部署整个流程的成本效益。

云集成:StorNext能够与AWS、Azure、Google Cloud等公有云服务集成,方便用户在云端进行大规模数据存储和处理,这对于利用云计算资源进行AI训练和分析尤其有用。

大规模数据处理能力:AI应用经常涉及处理PB级乃至EB级的非结构化数据,StorNext能够管理和处理这种级别的数据量,保证数据的完整性和可用性。

跨平台支持:由于StorNext的POSIX兼容性和广泛的API支持,它能够无缝对接各种操作系统和应用环境,便于AI开发人员在不同的AI框架下进行工作。

昆腾ActiveScale对象存储系统

昆腾ActiveScale是对海量非结构化数据进行存储和管理的一个高度可扩展的对象存储系统。对于AI工作负载的支持,昆腾ActiveScale主要体现在以下几个方面:

大规模数据存储:AI和机器学习项目通常涉及海量数据的收集、存储和处理。ActiveScale提供了基于对象的存储架构,可以轻松扩展到EB级别,满足AI训练所需的大规模数据存储需求。

数据湖构建:ActiveScale作为数据湖的基础架构,能够集中存储各类非结构化数据,如图像、视频、日志文件等,这些都是AI模型训练的重要输入来源。

数据分析友好:通过与Hadoop、Spark等大数据处理框架集成,ActiveScale能够支持AI相关的数据预处理、特征提取等工作,简化AI开发过程中的数据准备环节。

成本效益:ActiveScale通过分层存储策略,结合磁盘、磁带和其他低成本存储介质,实现对冷热数据的经济高效管理,帮助企业在控制成本的同时,应对AI应用带来的巨大存储压力。

API集成:ActiveScale支持S3接口和其他标准API,易于与各种AI开发平台和服务进行集成,使数据可以直接流入AI训练流水线。